Opis danych

Dane użyte w projekcie zostały zeskrapowane ze strony internetowej Otomoto, obejmując różnorodne informacje dotyczące ofert sprzedaży samochodów marki Audi. Zbiór danych zawiera kilka cech samochodów: model, rok produkcji, typ skrzyni biegów, przebieg, pojemność silnika, rodzaj paliwa, moc, spalanie i cena. Każdy rekord w ramce danych jest konkretną ofertę sprzedaży na platformie w dniu 27.12.2023

Cele projektu

1. Wizualizacja Danych: Przeprowadzenie analizy danych przy użyciu różnorodnych technik wizualizacji danych. Celem jest zrozumienie struktury danych, identyfikacja relacji między cechami oraz wykrycie interesujących trendów na rynku samochodowym.

2. Predykcja Cen: Wykorzystanie technik modelowania predykcyjnego do przewidzenia cen samochodów na podstawie dostępnych cech. Stworzenie modelu, który będzie w stanie oszacować wartość pojazdu na podstawie różnorodnych czynników, takich jak przebieg, rok produkcji czy rodzaj paliwa.

3. Analiza Trendów Rynkowych: Identyfikacja i zrozumienie trendów rynkowych na podstawie zebranych danych. Analiza, jak różne czynniki wpływają na ceny samochodów oraz jakie są preferencje nabywców w dniu dzisiejszym na rynku.

Importowanie danych

Niżej jest reprezentowane dane, którzy były pobrane i zapisane w pliku csv jako dataset. (scraper i tworzenie ramki danych jest w pliku “scraper.r”)

##    model year transmission mileage engineSize fuelType  hp  lkm  price
## 1     A3 2009 Automatyczna  220800       1968   Diesel 140  7.2  36900
## 2     A6 2005     Manualna  137400       2698   Diesel 180  9.0  23900
## 3     A1 2019 Automatyczna   30485        999  Benzyna 116  5.0  83500
## 4    RS4 2021 Automatyczna   41000       2894  Benzyna 450 12.0 299000
## 5     A6 2012 Automatyczna  143600       1968   Diesel 177  6.0  64000
## 6     A4 2012     Manualna  308000       1968   Diesel 143  5.0  35800
## 7     Q5 2023 Automatyczna       1       1968   Diesel 204  6.0 267800
## 8     A3 2023 Automatyczna       1       1498  Benzyna 150  6.0 128800
## 9     S8 2023 Automatyczna      10       3996  Benzyna 571  6.0 696600
## 10    A4 2016     Manualna  259000       1968   Diesel 150  4.0  67900
## [1] 12591     9

W ramce danych składającej się z 12591 obserwacji i 9 atrybutów znajdują się różne typy samochodów. Są nowe (1km przebiegu) i używane. Także są sportowe auta (RS4, S8), które mają ponad 450 koni mechanicznych i kosztują więcej.

## Liczba wartości pustych: 0
## Liczba duplikowanych wierszy: 0

W naszej ramce danych już są usunięte wartości puste i wierszy duplikowane, więc możemy przejść do następnego etapu..

Wizualizacja danych

Na wykresie mamy liczbę ogłoszeń w zależności od roku produkcji samochodu. Widzimy, że większość ogłoszeń to samochody z lat 2008-2022 (400+ obs.). Także na stronie są duża liczba samochodów nowych (1500 ogłoszeń w porównaniu z 500-700) i nawet już jest kilka samochodów z 2024 roku (przedsprzedaż)

Z wykresu wyżej możemy zauważyć, że najpopulurniejsze modele to Audi A4 i A6, które są samochodami rodzinnymi (sedany z dużą ilością miejsca na tylnych siedzeniach i dużym bagażnikiem). Najmniej popularne samochody stare (modele 90,200,100) i sportowe (RS lub S pakiety).

Co do skrzyń biegów: Po 2010 roku obserwujemy szybki wzrost automatycznych skrzyń biegów i prawie całkowita dominacja na rynku po 2019, liczba samochodów z manualną sb jest blisko zera. (skok automatycznych skrzyń do 1500 w 2023 roku wynika ze skoku ogólnej liczby samochodów)

Większość ogłoszeń samochodowych mają silnik diesla, na drugim miejscu jest benzyna i bardzo mały procent jest hybrydowych/elektrycznych/LPG (mniej niż 2%)

Dla silników diesla i benzynowych zrobiłem taki wykres, który da nam 3 wnioski:

1. Zużycie paliwa wzrasta wraz ze wzrostem pojemności silnika (co jest logiczne w silnikach spalinowych)

2. Diesel mniej pali na 100km niż Benzyna

3. Najwięcej jest silników z pojemnością 2 lub 3 litry.

Analogicznie z mocą silnika. Ogólnie wzrasta wraz ze wzrostem pojemności, chociaż są rekordy z mocą 600 KM i pojemnością do 2000cm3. Największą moc ma rekord z pojemnością silnika 3993 cm3

##   model year transmission mileage engineSize fuelType  hp  lkm   price
## 1 RS Q8 2022 Automatyczna      15       3996  Benzyna 600 17.0 1250000
## 2    R8 2024 Automatyczna       5       5204  Benzyna 620 20.0 1211200
## 3    R8 2023 Automatyczna      10       5204  Benzyna 620  8.0 1205500
## 4    R8 2024 Automatyczna       5       5204  Benzyna 620  9.4 1102780
## 5    R8 2023 Automatyczna       1       5204  Benzyna 620 20.0 1049000

Powyżej pokazano 5 najdroższych samochodów Audi na stronie otomoto. Wszystkie są nowe, sportowe, wycenione na ponad 1.000.000 zł (~ 250.000$). R8 jest supersamochodem marki Audi, RS Q8 - sportowa wersja SUV’a Q8.

Odnośnie do cen, zrobiłem kilka podziałów i wykres słupkowy, żeby zobaczyć jakich samochodów jest najwięcej. Zdziwiłem się, gdy zobaczyłem, że tak mało jest samochodów w cenach 80-100 tys., bo myślałem, że to jest najpopularniejszy budżet na samochód tej marki

Na wykresie pudełkowym widzimy, że wartości odstające to cennik > 346000 zł. Minimalna wartość - 1000, maksymalna - 1250000. Jednak nie widać dobrze innych ważnych cech, dla tego niżej zrobiłem skalowalny wykres

Teraz możemy zobaczyć inne wartości:

- Mediana ~ 46tys.

- Pierwszy kwartyl (Q1) ~ 25tys.

- Trzeci kwartyl (Q3) ~ 70tys.

Zauważmy, że samochody z automatyczną skrzynią biegów są droższe niż z manualną. Q1, Q3 dla automatycznej skrzyni biegów - 40.000, 80.000 odpowiednio. Dla manualnej - ~20.000 Q1 i ~50000 Q3. Także widzimy wartości odstające dla skrzyni manualnej po 95.000 złotych.

Co do rodzaju paliwa - Elektryczne lub Hybrydowe samochody więcej kosztują niż Benzyna czy Diesel. Mamy dużo wartości odstających dla benzyny i diesla, które zaczynają się od ceny ~300.000 zł. Silniki z rodzajem paliwa diesel mają najniższą medianą wśród innych.

## # A tibble: 10 × 2
##     year meanPrice
##    <int>     <dbl>
##  1  2024    367194
##  2  2023    301086
##  3  2022    247815
##  4  2021    220520
##  5  2020    190524
##  6  2019    157981
##  7  2018    138841
##  8  2017    112046
##  9  2016     93274
## 10  2015     84662

Średnio, cena wzrasta około 20tys. za rok. W 2022-2024 trochę więcej, bo w tych latach samochody są nie używane, przebieg minimalny, stan idealny

Ostatni wykres, odpowiadający cenie, jest połączeniem wcześniejszych ustaleń i obserwacji: najdroższe są samochody z automatyczną skrzynią biegów i silnikami benzynowymi, to cechy, które występują w modelach sportowych (R8, RS, S)

Powyżej możemy zobaczyć zależności pomiędzy zmiennymi przedstawionymi na mapie korelacji

Wnioski:

- Cena zależy bardzo od roku produkcji i liczby koni mechanicznych

- Moc zależy od pojemności silnika

- Spalanie zależy od mocy i pojemności

- Rok produkcji lub cena maleje, a przebieg rośnie (odwrotnie proporcjonalnie)

- Cena jest w słabej relacji ze spalaniem silnika

Podsumowując, wszystkie zależności i wnioski są logiczne na podstawie zasad działania silników spalinowych i ogólnych trendów panujących na rynku

Przygotowanie danych do tworzenia modelu predykcyjnego

Z wykresów obserwujemy, że w każdej kolumnie z danymi ciągłymi są wartości odstające, więc usuwam ich za pomocą metody IQR.

IQR = Q3 - Q1

Dolna granica = Q1 - 1.5 * IQR, Górna granica = Q3 + 1.5 * IQR. Wszystkie wartości poza granicami - odstające

Teraz nasze dane nie mają wartości odstających i możemy już rozdzielić ramkę danych na treningowy i testowy zbiory. Treningowy (80% zbioru) - zbiór, używany do nauczania modelu, a testowy(20% zbioru) służy do oceny skuteczności modelu na danych, które nie były używane w procesie uczenia. Naszym targetem jest kolumna “price”, wszyscy inni kolumny to predyktory

## Liczba rekordów w zbiorze treningowym:  8956 8
## Liczba rekordów w zbiorze testowym:  2236 8

Budowa modelu, jego analiza

Także zrobiłem skalowanie numerycznych zmiennych. Buduję modele predykcyjne Random Forest i Linear Regression. Niżej, za pomocą wykresu krópkowego, przedstawiona jest różnica prewidywanych wartości i wartości rzeczywistych dla każdej metody, a także wartość współczynika determinacji R2.

## Wartość R2:  0.91

Model jest dobrze zbudowany, wartość współczynnika determinacji jest dość wysoka.

## Wartość R2: 0.8

Widzimy, że dla regresji liniowej wartość jest niższa niż dla lasu losowego, jednak można jeszcze zwiększyć precyzyjność naszego modelu, nie usuwając wartości odstających. Dla tego ponownie importuję dane z pliku, podzielę ramkę danych na testowy i treningowy zbiory i zbuduję jeszcze raz modele.

## Wartość R2:  0.92

## Wartość R2: 0.83

Podsumowanie

Projekt umożliwił zrozumienie struktury danych rynku samochodowego i stworzył narzędzie prognostyczne do szacowania cen samochodów. Zaimplementowane wizualizacje pomogły zidentyfikować kluczowe zależności. Analiza trendów rynkowych pozwala zrozumieć aktualne preferencje kupujących.